两个预测模型比较,再教你一招IDI
在上一期的内容中,我们介绍了如果想要比较两个疾病模型的预测能力,除了可以绘制两个模型的ROC曲线并计算曲线下面积(AUC)外,还可以用定量的指标来比较新、旧模型预测准确率的改善程度,即净重新分类改善指数NRI。
(详细内容可查看:比较两个疾病模型的预测能力,AUC和NRI了解一下?)
NRI主要用于在设定好的切点水平下,例如某个指标的诊断界值,或高、中、低风险划分的界值等,来判断和比较新、旧模型的预测能力是否有所提高,在实际的临床应用中容易计算,也容易理解。
但是NRI的不足之处在于它只考虑了设定某个切点时的改善情况,不能考察模型的整体改善情况,此时我们就需要用到另一个指标,NRI的孪生兄弟--综合判别改善指数(Integrated Discrimination Improvement,IDI)。
综合判别改善指数IDI
IDI是由Pencina等人于2008年提出的,应该说算是一个非常新的判别指标了。由于它考虑了不同切点的情况,可以用来反映模型的整体改善状况,在一定程度上补齐了NRI的短板。同时,虽然AUC也考虑到了不同切点,但是AUC的改善情况在临床中不易解释,IDI也因此弥补了AUC的缺陷,可以形象地展示研究对象被准确重新判别的比例。
因此小咖也建议大家,在进行2个疾病模型比较,或者2个指标诊断效能比较时,除了传统的ROC曲线及其AUC,也可以同时给出NRI和IDI,更加全面多层次的展示模型的改善情况。
IDI计算方法
IDI的计算其实也比较简单,它反映的是两个模型预测概率差距上的变化,因此是基于疾病模型对每个个体的预测概率计算所得。它的计算方法为:
其中Pnew,events、Pold,events表示在患者组中,新模型和旧模型对于每个个体预测疾病发生概率的平均值,两者相减表示预测概率提高的变化量,对于患者来说,预测患病的概率越高,模型越准确,因此差值越大则提示新模型越好。
而Pnew,non-events、Pold,non-events表示在非患者组中,新模型和旧模型对于每个个体预测疾病发生概率的平均值,两者相减表示预测概率减少的量,对于非患者来说,预测患病的概率越低,模型越准确,因此差值越小则提示新模型越好。
最后,将两部分相减即可得到IDI,总体来说IDI越大,则提示新模型预测能力越好。与NRI类似,若IDI>0,则为正改善,说明新模型比旧模型的预测能力有所改善,若IDI<0,则为负改善,新模型预测能力下降,若IDI=0,则认为新模型没有改善。
我们可以通过计算Z统计量,来判断IDI与0相比是否具有统计学显著性,统计量Z近似服从正态分布,公式如下:
其中SEevents为Pnew,events - Pold,events的标准误,首先在患者组,计算新、旧模型对每个个体的预测概率,求得概率的差值,再计算差值的标准误即可。
同理,SEnon-events为Pnew,non-events - Pold,non-events的标准误,是在非患者组,计算新、旧模型对每个个体的预测概率,求得概率的差值,再计算差值的标准误即可。
研究实例
同样,我们结合一篇2016年发表在Journal of Circulating Biomakers杂志上的文章为例《Circulating cell-free DNA is a predictor of short-term neurological outcome in stroke patients treated with intravenous thrombolysis》,来向大家介绍一下如何在实际的研究中应用IDI。
在这篇文章中,研究人员建立了2个预测模型,即传统的临床模型,以及在传统临床模型的基础上引入了cfDNA指标作为新模型,来预测研究对象48小时神经的改善情况,如下图所示。改善组新、旧模型的平均预测概率分别为78.4%和69.5%,未改善组新、旧模型的平均预测概率分别为34.1%和46.4%。
根据上面的公式,我们可以计算出IDI=(78.4%-69.5%)-(34.1%-46.4%)=21.2%(文献中给出对应的P=0.0005),具有统计学显著性,提示在加入了cfDNA后,新模型的整体预测能力有所改善,综合判别的能力提高了21.2%。
注意事项
通过两期的内容,我们介绍了AUC、NRI和IDI这3个指标在判断和比较两个疾病风险模型预测能力中的应用,三者相辅相成,各有不同,最后我们再来总结几点需要注意的地方:
1. 相对于经典的AUC指标来说,NRI和IDI属于较为新颖的指标,还处于初步发展的阶段,虽然近年来受到越来越多研究者的关注,但是AUC的提高依然还是可以作为模型预测能力改善的第一判断标准。当然,如果能够同时给出NRI和IDI,则更是锦上添花,在理想的情况下,三者得到的结论应该是较为一致的。
2. NRI的计算与设定的切点密切相关,预测概率的等级划分应该选择适宜的界值。如果等级划分过宽,NRI计算值可能就会比较小,而达不到统计学显著性,如果等级划分过窄过细,则会得到更为精细的NRI,但是却失去了临床实践的指导意义。因此,预测概率切点的划分对于计算NRI来说显得十分重要,一定要结合临床专业的需求来确定。
3. 如果目前还无法确定明确的划分切点,那么IDI和AUC可能是较好的选择,如果比较关心切点处的改善情况,那么NRI可能是较好的选择。如果结局指标不是二分类变量,而是多分类情况,例如高、中、低风险,那么NRI和IDI可能是更好的选择,AUC则显得较为复杂。
4. 同时,我们还要考虑到临床的可行性和经济效益问题,例如,如果在不损失特异度的情况下,新增加一个预测指标,不会带来太多额外的经济负担,即使提高模型的预测能力并不是太显著,也可以考虑将新指标加入到预测模型中。相反,如果一个新指标难以获取,或者检测费用昂贵,即使模型的预测能力有所改善,可能也要保守选择传统的、成本较低的预测模型。
参考文献:
[1] J Circ Biomark. 2016 Sep 26; 5: 1849454416668791
更多阅读
关注医咖会,轻松学习统计学~
快加小咖个人微信(xys2016ykf),拉你进统计讨论群和众多热爱研究的小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些统计教程。或者使用电脑打开网址:http://www.mediecogroup.com/,查看60种SPSS教程。